Rafael Ortega 123972 \ Eduardo Moreno 151280 \ Yedam Fortiz 119523
| Geo Point | Geo Shape | consumo_total_mixto | anio | nomgeo | consumo_prom_dom | consumo_total_dom | alcaldia | colonia | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | bimestre | consumo_total_no_dom | gid | indice_des | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 19.4552601937,-99.1126617526 | {"type": "MultiPolygon", "coordinates": [[[[-9... | 159.72 | 2019 | Gustavo A. Madero | 42.566364 | 468.23 | GUSTAVO A. MADERO | 7 DE NOVIEMBRE | 53.24 | 631.00 | 42.066667 | 3.05 | 3 | 3.05 | 57250 | ALTO |
| 1 | 19.4552601937,-99.1126617526 | {"type": "MultiPolygon", "coordinates": [[[[-9... | 0.00 | 2019 | Gustavo A. Madero | 35.936667 | 107.81 | GUSTAVO A. MADERO | 7 DE NOVIEMBRE | 0.00 | 115.13 | 28.782500 | 7.32 | 3 | 7.32 | 57253 | MEDIO |
| 2 | 19.4557195871,-99.1135822797 | {"type": "MultiPolygon", "coordinates": [[[[-9... | 0.00 | 2019 | Gustavo A. Madero | 24.586000 | 122.93 | GUSTAVO A. MADERO | 7 DE NOVIEMBRE | 0.00 | 197.96 | 32.993333 | 75.03 | 3 | 75.03 | 57255 | POPULAR |
| 3 | 19.4596467168,-99.1044693641 | {"type": "MultiPolygon", "coordinates": [[[[-9... | 0.00 | 2019 | Gustavo A. Madero | 0.000000 | 0.00 | GUSTAVO A. MADERO | NUEVA TENOCHTITLAN | 0.00 | 253.53 | 84.510000 | 84.51 | 3 | 253.53 | 57267 | BAJO |
| 4 | 19.4741606185,-99.1467497317 | {"type": "MultiPolygon", "coordinates": [[[[-9... | 56.72 | 2019 | Azcapotzalco | 67.436250 | 539.49 | AZCAPOTZALCO | PROHOGAR | 56.72 | 839.35 | 76.304545 | 121.57 | 3 | 243.14 | 57330 | BAJO |
17
71102
| número de elementos únicos | |
|---|---|
| Geo Point | 22,930 |
| Geo Shape | 22,922 |
| consumo_total_mixto | 24,339 |
| anio | 1 |
| nomgeo | 17 |
| consumo_prom_dom | 52,060 |
| consumo_total_dom | 47,051 |
| alcaldia | 16 |
| colonia | 1,340 |
| consumo_prom_mixto | 31,911 |
| consumo_total | 56,015 |
| consumo_prom | 62,214 |
| consumo_prom_no_dom | 37,440 |
| bimestre | 3 |
| consumo_total_no_dom | 27,336 |
| gid | 71,102 |
| indice_des | 4 |
Geo Point object --> split y dos float
Geo Shape object
consumo_total_mixto float64
anio int64 --> Eliminar
nomgeo object --> Categorica
consumo_prom_dom float64
consumo_total_dom float64
alcaldia object --> Categorica
colonia object --> Categorica
consumo_prom_mixto float64
consumo_total float64
consumo_prom float64
consumo_prom_no_dom float64
bimestre int64 --> Categorica
consumo_total_no_dom float64
gid int64 --> Categorica
indice_des object --> Categorica
11
0
0
6
El dataframe tiene 17 columnas. Hay 5 columnas que tienen NA's.
| Estadisticas | Resultado | |
|---|---|---|
| 0 | Total de variables | 17 |
| 1 | Conteo de observaciones | 71,102 |
| 2 | Total de celdas | 1,208,734 |
| 3 | Cantidad de variables numericas | 11 |
| 4 | Cantidad de variables de fecha | 0 |
| 5 | Cantidad de variables categóricas | 0 |
| 6 | Cantidad de variables de texto | 6 |
| 7 | Valores faltantes | 26,318 |
| 8 | Porcentaje de valores faltantes | 2.2% |
| 9 | Renglones duplicados | 0 |
| 10 | Porcentaje de valores duplicados | 0.0% |
El dataframe tiene 17 columnas. Hay 5 columnas que tienen NA's.
| Missing Values | % del Total | |
|---|---|---|
| consumo_total_mixto | 8,327 | 11.7 |
| consumo_prom_mixto | 8,327 | 11.7 |
| consumo_prom_dom | 4,820 | 6.8 |
| consumo_total_dom | 4,820 | 6.8 |
| Geo Shape | 24 | 0.0 |
Existen un total de: 8908 renglones con al menos un valor nulo Representan el 12.53% del total de renglones.
8908
| renglon | valores_nulos | |
|---|---|---|
| 34651 | Nan in row 34651 | 5 |
| 58531 | Nan in row 58531 | 4 |
| 30737 | Nan in row 30737 | 4 |
| 30735 | Nan in row 30735 | 4 |
| 30729 | Nan in row 30729 | 4 |
| 30728 | Nan in row 30728 | 4 |
| 30724 | Nan in row 30724 | 4 |
| 30723 | Nan in row 30723 | 4 |
| 30722 | Nan in row 30722 | 4 |
| 30720 | Nan in row 30720 | 4 |
| metrica | anio | bimestre | gid | consumo_total_mixto | consumo_prom_dom | consumo_total_dom | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | consumo_total_no_dom | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | tipo | int64 | int64 | int64 | float64 | float64 | float64 | float64 | float64 | float64 | float64 | float64 |
| 1 | numero de observaciones | 71102 | 71102 | 71102 | 62775 | 66282 | 66282 | 62775 | 71102 | 71102 | 71102 | 71102 |
| 2 | media | 2019 | 2.01 | 35551.5 | 174.36 | 29.13 | 1186.26 | 50.64 | 1695.85 | 111.22 | 126.76 | 436.06 |
| 3 | desviacion estándar | 0 | 0.81 | 20525.5 | 312.66 | 64.57 | 2771.04 | 130.41 | 3555.7 | 1069.95 | 1095.82 | 2126.15 |
| 4 | cuartil 25% | 2019 | 1 | 17776.2 | 0 | 18.69 | 161.64 | 0 | 340.95 | 23.01 | 6.28 | 10.98 |
| 5 | cuartil 50% | 2019 | 2 | 35551.5 | 79.94 | 26.41 | 604.18 | 33.45 | 896.18 | 31.69 | 19.28 | 54.06 |
| 6 | cuartil 75% | 2019 | 3 | 53326.8 | 233.32 | 36.25 | 1261.45 | 61.22 | 1808.9 | 45.48 | 54.19 | 230.43 |
| 7 | minimo | 2019 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| 8 | maximo | 2019 | 3 | 71102 | 23404.4 | 7796.41 | 95060.7 | 11702.2 | 119727 | 89691.8 | 89691.8 | 119727 |
| 9 | numero de observaciones unicas | 1 | 3 | 71102 | 24339 | 52060 | 47051 | 31911 | 56015 | 62214 | 37440 | 27336 |
| 10 | top5 repetidos | conteo_top_5 2019 71102 | conteo_top_5 2 23942 3 2382... | conteo_top_5 2047 1 22517 ... | conteo_top_5 0.0 17715 36.0 ... | conteo_top_5 0.00 9861 1.22 ... | conteo_top_5 0.00 9861 1.22 ... | conteo_top_5 0.00 17715 36.00 ... | conteo_top_5 0.00 2451 3.05 ... | conteo_top_5 0.00 2451 1.22 ... | conteo_top_5 0.00 8109 1.22 ... | conteo_top_5 0.00 8109 1.22 ... |
'No hay variables categóricas'
| metrica | Geo Point | Geo Shape | nomgeo | alcaldia | colonia | indice_des | |
|---|---|---|---|---|---|---|---|
| 0 | tipo | object | object | object | object | object | object |
| 1 | numero de observaciones | 71102 | 71102 | 71102 | 71102 | 71102 | 71102 |
| 2 | observaciones unicas | 22930 | 22922 | 17 | 16 | 1340 | 4 |
| 3 | % observaciones unicas | 0.322494 | 0.322382 | 0.000239093 | 0.000225029 | 0.0188462 | 5.62572e-05 |
| 4 | tamano promedio | 27.781 | 3295.96 | 12.4034 | 12.2552 | 16.8656 | 4.83564 |
| 5 | tamano minmo | 23 | 198 | 6 | 7 | 4 | 4 |
| 6 | tamano maximo | 28 | 61218 | 22 | 19 | 43 | 7 |
['GUSTAVO A. MADERO' 'AZCAPOTZALCO' 'COYOACAN' 'TLALPAN' 'MILPA ALTA' 'ALVARO OBREGON' 'CUAJIMALPA' 'TLAHUAC' 'MAGDALENA CONTRERAS' 'XOCHIMILCO' 'IZTAPALAPA' 'IZTACALCO' 'BENITO JUAREZ' 'MIGUEL HIDALGO' 'CUAUHTEMOC' 'VENUSTIANO CARRANZA'] 16
['Gustavo A. Madero' 'Azcapotzalco' 'Coyoacán' 'Talpan' 'Milpa Alta' 'Álvaro Obregón' 'Cuajimalpa de Morelos' 'Tláhuac' 'La Magdalena Contreras' 'Xochimilco' 'Iztapalapa' 'Iztacalco' 'Benito Juárez' 'Miguel Hidalgo' 'Cuauhtémoc' 'Venustiano Carranza' 'Tlalpan'] 17
['Gustavo A. Madero' 'Azcapotzalco' 'Coyoacán' 'Tlalpan' 'Milpa Alta' 'Álvaro Obregón' 'Cuajimalpa de Morelos' 'Tláhuac' 'La Magdalena Contreras' 'Xochimilco' 'Iztapalapa' 'Iztacalco' 'Benito Juárez' 'Miguel Hidalgo' 'Cuauhtémoc' 'Venustiano Carranza'] 16
anio tiene solamente un valor en toda la base de datos, por lo que no tendría sentido conservarla.nomgeo contenía un error, poniendo como otra categoría la palabra talpan, dicho error fue corregido.gidindica el ID de cada observación.consumo_total_mixto, consumo_prom_mixto, consumo_prom_dom, consumo_total_dom y Geo Shapeconsumo_total_mixto tiene una desviación estándar muy alta (casi el doble de la media), hay una gran cantidad de ceros (incluso, llegan a ser por lo menos el 25% de los datos) --> son 17,715 cerosconsumo_total_mixtoestá en un valor de 233, mientras que el máximo está en 23,404 --> podría indicar valores atípicos.consumo_prom_dom tiene 9,861 ceros.consumo_prom_domestá en un valor de 36.25, mientras que el máximo está en 7,796 --> podría indicar valores atípicos.consumo_total_domestá en un valor de 1,261, mientras que el máximo está en 95,060 --> podría indicar valores atípicos.consumo_total_mixtoy consumo_prom_mixto tienen la misma cantidad de cerosconsumo_prom_mixtoestá en un valor de 61, mientras que el máximo está en 11,702 --> podría indicar valores atípicos.consumo_totalestá en un valor de 1,808, mientras que el máximo está en 119,727 --> podría indicar valores atípicos.consumo_promtiene una desviación estándar de 1,069 y una media de 111. Adicionalmente, el cuartil 75% está en un valor de 45, mientras el máximo está en 89,691.consumo_prom_no_domy consumo_total_no_domtienen ambas una media no tan alta, pero una desviación estándar muy grande y un máximo muy elevado.nomgeoy alcaldiason variables redundantes, no es necesario mantener ambas.gidindica el ID de cada observación.En cuanto al índice de desarrollo (indice_des), las tres clasificaciones con mayor cantidad de registros son:
Entre estas últimas tres, forman poco más del 80% de los registros, por lo que la categoría "medio" no está tan lejos de ellas.
No hay variables de tipo fecha.
No hay variables que debieran estar como de tipo texto, sino más bien categóricas.
latitud y longitud.nomgeo, alcaldía, colonia, bimestre, gid e indice_des deberían estar en formato categórico| geo_point | geo_shape | consumo_total_mixto | anio | nomgeo | consumo_prom_dom | consumo_total_dom | alcaldia | colonia | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | bimestre | consumo_total_no_dom | gid | indice_des | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 19.4552601937,-99.1126617526 | {"type": "multipolygon", "coordinates": [[[[-9... | 159.72 | 2019 | gustavo a. madero | 42.566364 | 468.23 | gustavo a. madero | 7 de noviembre | 53.24 | 631.00 | 42.066667 | 3.05 | 3 | 3.05 | 57250 | alto |
| 1 | 19.4552601937,-99.1126617526 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 35.936667 | 107.81 | gustavo a. madero | 7 de noviembre | 0.00 | 115.13 | 28.782500 | 7.32 | 3 | 7.32 | 57253 | medio |
| 2 | 19.4557195871,-99.1135822797 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 24.586000 | 122.93 | gustavo a. madero | 7 de noviembre | 0.00 | 197.96 | 32.993333 | 75.03 | 3 | 75.03 | 57255 | popular |
| 3 | 19.4596467168,-99.1044693641 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 0.000000 | 0.00 | gustavo a. madero | nueva tenochtitlan | 0.00 | 253.53 | 84.510000 | 84.51 | 3 | 253.53 | 57267 | bajo |
| 4 | 19.4741606185,-99.1467497317 | {"type": "multipolygon", "coordinates": [[[[-9... | 56.72 | 2019 | azcapotzalco | 67.436250 | 539.49 | azcapotzalco | prohogar | 56.72 | 839.35 | 76.304545 | 121.57 | 3 | 243.14 | 57330 | bajo |
| geo_point | geo_shape | consumo_total_mixto | anio | nomgeo | consumo_prom_dom | consumo_total_dom | alcaldia | colonia | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | bimestre | consumo_total_no_dom | gid | indice_des | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 19.4552601937,-99.1126617526 | {"type": "multipolygon", "coordinates": [[[[-9... | 159.72 | 2019 | gustavo a. madero | 42.566364 | 468.23 | gustavo a. madero | 7 de noviembre | 53.24 | 631.00 | 42.066667 | 3.05 | 3 | 3.05 | 57250 | alto |
| 1 | 19.4552601937,-99.1126617526 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 35.936667 | 107.81 | gustavo a. madero | 7 de noviembre | 0.00 | 115.13 | 28.782500 | 7.32 | 3 | 7.32 | 57253 | medio |
| 2 | 19.4557195871,-99.1135822797 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 24.586000 | 122.93 | gustavo a. madero | 7 de noviembre | 0.00 | 197.96 | 32.993333 | 75.03 | 3 | 75.03 | 57255 | popular |
| 3 | 19.4596467168,-99.1044693641 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 0.000000 | 0.00 | gustavo a. madero | nueva tenochtitlan | 0.00 | 253.53 | 84.510000 | 84.51 | 3 | 253.53 | 57267 | bajo |
| 4 | 19.4741606185,-99.1467497317 | {"type": "multipolygon", "coordinates": [[[[-9... | 56.72 | 2019 | azcapotzalco | 67.436250 | 539.49 | azcapotzalco | prohogar | 56.72 | 839.35 | 76.304545 | 121.57 | 3 | 243.14 | 57330 | bajo |
geo_point object geo_shape object consumo_total_mixto float64 anio int64 nomgeo category consumo_prom_dom float64 consumo_total_dom float64 alcaldia category colonia category consumo_prom_mixto float64 consumo_total float64 consumo_prom float64 consumo_prom_no_dom float64 bimestre category consumo_total_no_dom float64 gid category indice_des category latitud object longitud object dtype: object
geo_point object geo_shape object consumo_total_mixto float64 anio int64 nomgeo category consumo_prom_dom float64 consumo_total_dom float64 alcaldia category colonia category consumo_prom_mixto float64 consumo_total float64 consumo_prom float64 consumo_prom_no_dom float64 bimestre category consumo_total_no_dom float64 gid category indice_des category latitud float64 longitud float64 dtype: object
| geo_shape | consumo_total_mixto | anio | nomgeo | consumo_prom_dom | consumo_total_dom | alcaldia | colonia | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | bimestre | consumo_total_no_dom | gid | indice_des | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | {"type": "multipolygon", "coordinates": [[[[-9... | 159.72 | 2019 | gustavo a. madero | 42.566364 | 468.23 | gustavo a. madero | 7 de noviembre | 53.24 | 631.00 | 42.066667 | 3.05 | 3 | 3.05 | 57250 | alto | 19.455260 | -99.112662 |
| 1 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 35.936667 | 107.81 | gustavo a. madero | 7 de noviembre | 0.00 | 115.13 | 28.782500 | 7.32 | 3 | 7.32 | 57253 | medio | 19.455260 | -99.112662 |
| 2 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 24.586000 | 122.93 | gustavo a. madero | 7 de noviembre | 0.00 | 197.96 | 32.993333 | 75.03 | 3 | 75.03 | 57255 | popular | 19.455720 | -99.113582 |
| 3 | {"type": "multipolygon", "coordinates": [[[[-9... | 0.00 | 2019 | gustavo a. madero | 0.000000 | 0.00 | gustavo a. madero | nueva tenochtitlan | 0.00 | 253.53 | 84.510000 | 84.51 | 3 | 253.53 | 57267 | bajo | 19.459647 | -99.104469 |
| 4 | {"type": "multipolygon", "coordinates": [[[[-9... | 56.72 | 2019 | azcapotzalco | 67.436250 | 539.49 | azcapotzalco | prohogar | 56.72 | 839.35 | 76.304545 | 121.57 | 3 | 243.14 | 57330 | bajo | 19.474161 | -99.146750 |
| consumo_total_mixto | anio | nomgeo | consumo_prom_dom | consumo_total_dom | alcaldia | colonia | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | bimestre | consumo_total_no_dom | gid | indice_des | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 159.72 | 2019 | gustavo a. madero | 42.566364 | 468.23 | gustavo a. madero | 7 de noviembre | 53.24 | 631.00 | 42.066667 | 3.05 | 3 | 3.05 | 57250 | alto | 19.455260 | -99.112662 |
| 1 | 0.00 | 2019 | gustavo a. madero | 35.936667 | 107.81 | gustavo a. madero | 7 de noviembre | 0.00 | 115.13 | 28.782500 | 7.32 | 3 | 7.32 | 57253 | medio | 19.455260 | -99.112662 |
| 2 | 0.00 | 2019 | gustavo a. madero | 24.586000 | 122.93 | gustavo a. madero | 7 de noviembre | 0.00 | 197.96 | 32.993333 | 75.03 | 3 | 75.03 | 57255 | popular | 19.455720 | -99.113582 |
| 3 | 0.00 | 2019 | gustavo a. madero | 0.000000 | 0.00 | gustavo a. madero | nueva tenochtitlan | 0.00 | 253.53 | 84.510000 | 84.51 | 3 | 253.53 | 57267 | bajo | 19.459647 | -99.104469 |
| 4 | 56.72 | 2019 | azcapotzalco | 67.436250 | 539.49 | azcapotzalco | prohogar | 56.72 | 839.35 | 76.304545 | 121.57 | 3 | 243.14 | 57330 | bajo | 19.474161 | -99.146750 |
hecho con las funciones anteriores
11
6
0
0
El dataframe tiene 17 columnas. Hay 4 columnas que tienen NA's.
| Estadisticas | Resultado | |
|---|---|---|
| 0 | Total de variables | 17 |
| 1 | Conteo de observaciones | 71,102 |
| 2 | Total de celdas | 1,208,734 |
| 3 | Cantidad de variables numericas | 11 |
| 4 | Cantidad de variables de fecha | 0 |
| 5 | Cantidad de variables categóricas | 6 |
| 6 | Cantidad de variables de texto | 0 |
| 7 | Valores faltantes | 26,294 |
| 8 | Porcentaje de valores faltantes | 2.2% |
| 9 | Renglones duplicados | 0 |
| 10 | Porcentaje de valores duplicados | 0.0% |
El dataframe tiene 17 columnas. Hay 4 columnas que tienen NA's.
| Missing Values | % del Total | |
|---|---|---|
| consumo_total_mixto | 8,327 | 11.7 |
| consumo_prom_mixto | 8,327 | 11.7 |
| consumo_prom_dom | 4,820 | 6.8 |
| consumo_total_dom | 4,820 | 6.8 |
Existen un total de: 8888 renglones con al menos un valor nulo Representan el 12.50% del total de renglones.
8888
| renglon | valores_nulos | |
|---|---|---|
| 58552 | Nan in row 58552 | 4 |
| 48610 | Nan in row 48610 | 4 |
| 30742 | Nan in row 30742 | 4 |
| 30740 | Nan in row 30740 | 4 |
| 30737 | Nan in row 30737 | 4 |
| 30736 | Nan in row 30736 | 4 |
| 30735 | Nan in row 30735 | 4 |
| 36078 | Nan in row 36078 | 4 |
| 30729 | Nan in row 30729 | 4 |
| 30578 | Nan in row 30578 | 4 |
| metrica | anio | consumo_total_mixto | consumo_prom_dom | consumo_total_dom | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | consumo_total_no_dom | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | tipo | int64 | float64 | float64 | float64 | float64 | float64 | float64 | float64 | float64 | float64 | float64 |
| 1 | numero de observaciones | 71102 | 62775 | 66282 | 66282 | 62775 | 71102 | 71102 | 71102 | 71102 | 71102 | 71102 |
| 2 | media | 2019 | 174.36 | 29.13 | 1186.26 | 50.64 | 1695.85 | 111.22 | 126.76 | 436.06 | 19.39 | -99.13 |
| 3 | desviacion estándar | 0 | 312.66 | 64.57 | 2771.04 | 130.41 | 3555.7 | 1069.95 | 1095.82 | 2126.15 | 0.07 | 0.06 |
| 4 | cuartil 25% | 2019 | 0 | 18.69 | 161.64 | 0 | 340.95 | 23.01 | 6.28 | 10.98 | 19.34 | -99.17 |
| 5 | cuartil 50% | 2019 | 79.94 | 26.41 | 604.18 | 33.45 | 896.18 | 31.69 | 19.28 | 54.06 | 19.39 | -99.14 |
| 6 | cuartil 75% | 2019 | 233.32 | 36.25 | 1261.45 | 61.22 | 1808.9 | 45.48 | 54.19 | 230.43 | 19.45 | -99.1 |
| 7 | minimo | 2019 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 19.14 | -99.34 |
| 8 | maximo | 2019 | 23404.4 | 7796.41 | 95060.7 | 11702.2 | 119727 | 89691.8 | 89691.8 | 119727 | 19.58 | -98.95 |
| 9 | numero de observaciones unicas | 1 | 24339 | 52060 | 47051 | 31911 | 56015 | 62214 | 37440 | 27336 | 22930 | 22930 |
| 10 | top5 repetidos | conteo_top_5 2019 71102 | conteo_top_5 0.0 17715 36.0 ... | conteo_top_5 0.00 9861 1.22 ... | conteo_top_5 0.00 9861 1.22 ... | conteo_top_5 0.00 17715 36.00 ... | conteo_top_5 0.00 2451 3.05 ... | conteo_top_5 0.00 2451 1.22 ... | conteo_top_5 0.00 8109 1.22 ... | conteo_top_5 0.00 8109 1.22 ... | conteo_top_5 19.495460 2... | conteo_top_5 -99.185895 ... |
| metrica | nomgeo | alcaldia | colonia | bimestre | gid | indice_des | |
|---|---|---|---|---|---|---|---|
| 0 | tipo | category | category | category | category | category | category |
| 1 | numero de categorias | 16 | 16 | 1340 | 3 | 71102 | 4 |
| 2 | numero de observaciones | 71102 | 71102 | 71102 | 71102 | 71102 | 71102 |
| 3 | observaciones nulas | 0 | 0 | 0 | 0 | 0 | 0 |
| 4 | % observaciones nulas | 0 | 0 | 0 | 0 | 0 | 0 |
| 5 | valores unicos | [gustavo a. madero, azcapotzalco, coyoacan, tl... | [gustavo a. madero, azcapotzalco, coyoacan, tl... | [7 de noviembre, nueva tenochtitlan, prohogar,... | [3, 1, 2] | [57250, 57253, 57255, 57267, 57330, 57273, 572... | [alto, medio, popular, bajo] |
| 6 | moda1/veces/porcentaje | [iztapalapa, 10515, 14.79%] | [iztapalapa, 10515, 14.79%] | [centro, 1139, 1.6%] | [2, 23942, 33.67%] | [71102, 1, 0.0%] | [bajo, 29248, 41.14%] |
| 7 | moda2/veces/porcentaje | [gustavo a. madero, 10058, 14.15%] | [gustavo a. madero, 10058, 14.15%] | [agricola oriental, 837, 1.18%] | [3, 23822, 33.5%] | [23703, 1, 0.0%] | [popular, 16539, 23.26%] |
| 8 | moda3/veces/porcentaje | [cuauhtemoc, 7313, 10.29%] | [cuauhtemoc, 7313, 10.29%] | [roma norte, 602, 0.85%] | [1, 23338, 32.82%] | [23697, 1, 0.0%] | [alto, 15516, 21.82%] |
'No hay variables de tipo texto'
Queremos generar el data profiling de estos datos.
¿Cuántas alcadías tienes? ¿Cuántos nomgeo tienes? ¿Identificas algún error?
Transformar las variables a formato estándar: minúsculas, sin espacios en blanco, sin signos de puntuación.
| consumo_total_mixto | anio | nomgeo | consumo_prom_dom | consumo_total_dom | alcaldia | colonia | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | bimestre | consumo_total_no_dom | gid | indice_des | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 159.72 | 2019 | gustavo a. madero | 42.566364 | 468.23 | gustavo a. madero | 7 de noviembre | 53.24 | 631.00 | 42.066667 | 3.05 | 3 | 3.05 | 57250 | alto | 19.455260 | -99.112662 |
| 1 | 0.00 | 2019 | gustavo a. madero | 35.936667 | 107.81 | gustavo a. madero | 7 de noviembre | 0.00 | 115.13 | 28.782500 | 7.32 | 3 | 7.32 | 57253 | medio | 19.455260 | -99.112662 |
| 2 | 0.00 | 2019 | gustavo a. madero | 24.586000 | 122.93 | gustavo a. madero | 7 de noviembre | 0.00 | 197.96 | 32.993333 | 75.03 | 3 | 75.03 | 57255 | popular | 19.455720 | -99.113582 |
| 3 | 0.00 | 2019 | gustavo a. madero | 0.000000 | 0.00 | gustavo a. madero | nueva tenochtitlan | 0.00 | 253.53 | 84.510000 | 84.51 | 3 | 253.53 | 57267 | bajo | 19.459647 | -99.104469 |
| 4 | 56.72 | 2019 | azcapotzalco | 67.436250 | 539.49 | azcapotzalco | prohogar | 56.72 | 839.35 | 76.304545 | 121.57 | 3 | 243.14 | 57330 | bajo | 19.474161 | -99.146750 |
| consumo_total_mixto | consumo_prom_dom | consumo_total_dom | alcaldia | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | bimestre | consumo_total_no_dom | gid | indice_des | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 159.72 | 42.566364 | 468.23 | gustavo a. madero | 53.24 | 631.00 | 42.066667 | 3.05 | 3 | 3.05 | 57250 | alto | 19.455260 | -99.112662 |
| 1 | 0.00 | 35.936667 | 107.81 | gustavo a. madero | 0.00 | 115.13 | 28.782500 | 7.32 | 3 | 7.32 | 57253 | medio | 19.455260 | -99.112662 |
| 2 | 0.00 | 24.586000 | 122.93 | gustavo a. madero | 0.00 | 197.96 | 32.993333 | 75.03 | 3 | 75.03 | 57255 | popular | 19.455720 | -99.113582 |
| 3 | 0.00 | 0.000000 | 0.00 | gustavo a. madero | 0.00 | 253.53 | 84.510000 | 84.51 | 3 | 253.53 | 57267 | bajo | 19.459647 | -99.104469 |
| 4 | 56.72 | 67.436250 | 539.49 | azcapotzalco | 56.72 | 839.35 | 76.304545 | 121.57 | 3 | 243.14 | 57330 | bajo | 19.474161 | -99.146750 |
['alto', 'medio', 'popular', 'bajo']
15516 El dataframe tiene 14 columnas. Hay 4 columnas que tienen NA's.
9799 El dataframe tiene 14 columnas. Hay 4 columnas que tienen NA's.
16539 El dataframe tiene 14 columnas. Hay 4 columnas que tienen NA's.
29248 El dataframe tiene 14 columnas. Hay 4 columnas que tienen NA's.
| indice_des | porcentaje | |
|---|---|---|
| bajo | 29,248 | 41.14% |
| popular | 16,539 | 23.26% |
| alto | 15,516 | 21.82% |
| medio | 9,799 | 13.78% |
| Missing Values | % del Total | indice | categoria | |
|---|---|---|---|---|
| consumo_total_mixto | 1,775 | 11.4 | alto | consumo_total_mixto |
| consumo_prom_mixto | 1,775 | 11.4 | alto | consumo_prom_mixto |
| consumo_prom_dom | 367 | 2.4 | alto | consumo_prom_dom |
| consumo_total_dom | 367 | 2.4 | alto | consumo_total_dom |
| consumo_total_mixto | 772 | 7.9 | medio | consumo_total_mixto |
| consumo_prom_mixto | 772 | 7.9 | medio | consumo_prom_mixto |
| consumo_prom_dom | 358 | 3.7 | medio | consumo_prom_dom |
| consumo_total_dom | 358 | 3.7 | medio | consumo_total_dom |
| consumo_total_mixto | 3,243 | 19.6 | popular | consumo_total_mixto |
| consumo_prom_mixto | 3,243 | 19.6 | popular | consumo_prom_mixto |
| consumo_prom_dom | 2,507 | 15.2 | popular | consumo_prom_dom |
| consumo_total_dom | 2,507 | 15.2 | popular | consumo_total_dom |
| consumo_total_mixto | 2,537 | 8.7 | bajo | consumo_total_mixto |
| consumo_prom_mixto | 2,537 | 8.7 | bajo | consumo_prom_mixto |
| consumo_prom_dom | 1,588 | 5.4 | bajo | consumo_prom_dom |
| consumo_total_dom | 1,588 | 5.4 | bajo | consumo_total_dom |
(0.0, 10000.0)
(0.0, 500.0)
The autoreload extension is already loaded. To reload it, use: %reload_ext autoreload
['consumo_total_mixto' 'consumo_prom_dom' 'consumo_total_dom' 'consumo_prom_mixto' 'consumo_total' 'consumo_prom' 'consumo_prom_no_dom' 'consumo_total_no_dom']
Los siguientes histogramas muestran la gran densidad en niveles bajos (ceros y/o cercanos a dicho valor), además de que se logra apreciar que todas las variables poseen colas pesadas, pues hay valores muy altos para todas las variables.
En la siguiente sección se realizará un análisis detallado en aquellas observaciones donde no hubo medición en el consumo de agua, es decir, en donde el consumo fue cero para el periodo en cuestión.
0.03447160417428483
Los valores que contienen puros ceros en las variables numéricas corresponden aproximadamente al $3.4\%$ de los datos, se preguntará a cliente porqué tenemos observaciones sin consumo de agua para dichos periodos y lugares:
alcaldia col_0 count alcaldia iztapalapa 1119 tlalpan 420 gustavo a. madero 159 coyoacan 136 magdalena contreras 115 bimestre col_0 count bimestre 1 836 2 810 3 805 colonia col_0 count colonia santa maria aztahuacan 51 xalpa 48 buenavista 46 lomas de zaragoza 36 pueblo santa cruz meyehualco 35 gid col_0 count gid 321 1 47242 1 47225 1 47226 1 47228 1 indice_des col_0 count indice_des popular 1227 bajo 952 medio 202 alto 70 nomgeo col_0 count nomgeo iztapalapa 1119 tlalpan 420 gustavo a. madero 159 coyoacan 136 la magdalena contreras 115
Text(0.5, 1.0, 'Distribución de ceros por alcaldías y colonias')
Cabe mencionar que no todas las colonias se encuentran en cada una de las alcaldías, lo cual puede confundir al lector, esta tabla muestra la cantidad de ceros que cada una de las colonias de distintas alcaldías. Nótese que las alcaldías de Iztapalapa y Tlalpan contienen una mayor cantidad de ceros, esto se debe a que son las que contienen más colonias. La siguiente tabla muestra la cantidad de colonias por alcaldía.
| colonia | |
|---|---|
| alcaldia | |
| iztapalapa | 90 |
| tlalpan | 56 |
| gustavo a. madero | 32 |
| xochimilco | 26 |
| tlahuac | 22 |
| magdalena contreras | 20 |
| alvaro obregon | 18 |
| coyoacan | 17 |
| milpa alta | 11 |
| benito juarez | 11 |
| miguel hidalgo | 9 |
| cuauhtemoc | 8 |
| azcapotzalco | 8 |
| venustiano carranza | 7 |
| cuajimalpa | 6 |
| iztacalco | 5 |
| colonia | |
|---|---|
| alcaldia | |
| iztapalapa | 193 |
| alvaro obregon | 188 |
| gustavo a. madero | 167 |
| tlalpan | 130 |
| coyoacan | 96 |
| xochimilco | 90 |
| azcapotzalco | 88 |
| miguel hidalgo | 86 |
| tlahuac | 70 |
| venustiano carranza | 67 |
| benito juarez | 53 |
| cuajimalpa | 39 |
| magdalena contreras | 38 |
| iztacalco | 38 |
| cuauhtemoc | 35 |
| milpa alta | 33 |
En la tabla izquierada se muestra la cantidad de colonias que tiene cada alcaldía para aquellas observaciones que tienen ceros en todas las variables numéricas, mientras que en la tabla derecha se muestran los datos completos. Los datos no son afectados por este suceso de manera uniforme, pues se esperaría que se mantuviera el orden de las alcaldías en relación a la cantidad de colonias que poseen. Hay colonias que son más afectadas que otras, por lo que habrá que aclarar con cliente a qué se debe este fenómeno.
Se observa que hay un patrón: independientemente de la alcaldía, si hay ceros en el nivel popular, entonces hay ceros en el nivel bajo y viceversa, por lo que son estos $2$ ídices de desarrollo que son más afectados por la cantidad de ceros, lo cual no es para sorprenderse, debido a que son los que presentan mayor densidad. Sin embargo, para el caso de Tlalpan, se incluye el índice medio, donde se concluye que los 3 niveles son afectados, sin importar la densidad.
indice_des popular 1227 bajo 952 medio 202 alto 70 Name: indice_des, dtype: int64
Text(0.5, 1.0, 'Distribución de ceros por índice de darrrollo y colonias')
Las colonias presentan la misma cantidad de ceros a lo largo del semestre, de lo que concluímos que la presencia de ceros en las observaciones no se debe a un tema temporal, sino que esto se presenta de manera recurrente cada periodo.
Text(0.5, 1.0, 'Longitud y latitud (ceros)')
Observamos que se pueden observar ciertas zonas en donde hay una mayor agrupación de datos, esto se debe a la densidad en las zonas, no a que haya un fallo en la medición.
Conclusión:
| consumo_total_mixto | anio | consumo_prom_dom | consumo_total_dom | consumo_prom_mixto | consumo_total | consumo_prom | consumo_prom_no_dom | consumo_total_no_dom | latitud | longitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| consumo_total_mixto | 1.000000 | NaN | 0.042414 | 0.095245 | 0.747912 | 0.179980 | -0.015296 | -0.029513 | 0.024932 | 0.158316 | -0.090781 |
| anio | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
| consumo_prom_dom | 0.042414 | NaN | 1.000000 | 0.039057 | 0.034427 | 0.086303 | 0.082282 | 0.106284 | 0.095580 | 0.038515 | -0.084826 |
| consumo_total_dom | 0.095245 | NaN | 0.039057 | 1.000000 | 0.059390 | 0.829515 | -0.024583 | -0.008457 | 0.067818 | 0.065557 | -0.133556 |
| consumo_prom_mixto | 0.747912 | NaN | 0.034427 | 0.059390 | 1.000000 | 0.155880 | 0.002969 | -0.008359 | 0.074109 | 0.083842 | -0.094724 |
| consumo_total | 0.179980 | NaN | 0.086303 | 0.829515 | 0.155880 | 1.000000 | 0.399393 | 0.428152 | 0.640387 | 0.083843 | -0.160327 |
| consumo_prom | -0.015296 | NaN | 0.082282 | -0.024583 | 0.002969 | 0.399393 | 1.000000 | 0.984467 | 0.705045 | 0.005914 | -0.026862 |
| consumo_prom_no_dom | -0.029513 | NaN | 0.106284 | -0.008457 | -0.008359 | 0.428152 | 0.984467 | 1.000000 | 0.737402 | 0.000485 | -0.039022 |
| consumo_total_no_dom | 0.024932 | NaN | 0.095580 | 0.067818 | 0.074109 | 0.640387 | 0.705045 | 0.737402 | 1.000000 | 0.024435 | -0.086867 |
| latitud | 0.158316 | NaN | 0.038515 | 0.065557 | 0.083842 | 0.083843 | 0.005914 | 0.000485 | 0.024435 | 1.000000 | -0.174334 |
| longitud | -0.090781 | NaN | -0.084826 | -0.133556 | -0.094724 | -0.160327 | -0.026862 | -0.039022 | -0.086867 | -0.174334 | 1.000000 |
La mayoría de las correlaciones están cercanas al cero, por lo que no resultan muy importantes.
Nota: Gráfica limitada a 2,000 m^3 en el eje x y 1,200 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
Nota: Gráfica limitada a 1,000 m^3 en el eje x y 800 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
Nota: Gráfica limitada a 200 m^3 en el eje x y 1,000 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
Nota: Gráfica limitada a 2,000 m^3 en el eje x y 1,000 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
Nota: Gráfica limitada a 300 m^3 en el eje x y 1,000 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
Nota: Gráfica limitada a 100 m^3 en el eje x y 1,000 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
Nota: Gráfica limitada a 800 m^3 en el eje x y 500 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
Nota: Gráfica limitada a 1,200 m^3 en el eje x y 1,000 en el conteo (eje y) para poder observar de mejor forma la distribución de los datos
En esta sección, se encontrarán las dispersiones de cada indice con respecto a ciertas combinaciones de variables.
<seaborn.axisgrid.PairGrid at 0x7fb5a7117650>
Combinaciones podrían explicar:
| elemento y | elemento x | indices |
|---|---|---|
| latitud | consumo_total_mixto | todos |
| longitud | consumo_total_mixto | todos |
| consumo_total_dom | consumo_total | todos |
| consumo_total_dom | latitud | todos |
| consumo_total_dom | longitud | todos |
| consumo_total | consumo_prom | todos |
| consumo_total | consumo_total_no_dom | todos |
| consumo_total | latitud | todos |
| consumo_total | longitud | todos |
| consumo_prom | latitud | todos |
| consumo_prom | longitud | todos |
| latitud | longitud | todos |
Representatividad de todos los inmuebles en la CDMX para que puedan participar equitativamente en programas de subsidios